RREDCoT: Redistribución Segmentada de Recompensas para Razonamiento
Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.
Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.
Las métricas de curación solo-acción fallan ante defectos estructurales en demostraciones. Incluso las mejores solo recuperan un tercio del rendimiento.
NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.
Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.
GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.
ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.
Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.
Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.
Descubre cómo la caracterización de conjuntos de metas en el álgebra booleana de tareas reduce costos de aprendizaje y tiempo de composición en RL.
Descubre DistIL: aprendizaje por refuerzo con retroalimentación rica para razonamiento, código y matemáticas. ¡Lee más!
El condicionamiento de éxito resuelve un problema de optimización con restricción de divergencia, mejorando políticas de IA sin degradar el rendimiento. ¡Descúbrelo!
Descubre cómo los embeddings simpliciales mejoran la eficiencia muestral en Actor-Critic, acelerando el entrenamiento sin pérdida. Resultados: TD3, SAC, PPO.
¿El entrelazamiento cuántico mejora juegos adversariales? Un estudio muestra ventaja competitiva en Pong con circuitos cuánticos.
Aplicar RL durante el preentrenamiento de LLM mejora rendimiento, superando al enfoque SFT→RL. Fusionar RL y SFT da mejores resultados sin perder capacidades.
Descubre cómo los algoritmos de gradiente de política en tiempo continuo mejoran la robustez en MDPs, con convergencia lineal y menor complejidad muestral.
Mejora el algoritmo MADDPG con inferencia de acciones y muestreo por importancia para optimizar la cooperación y exploración en entornos multiagente.
La entropía falla en RL visual: VEPO selecciona tokens visual-informativos y supera en hasta 3.15 puntos. Descubre cómo.
GTR: región de confianza Gaussiana para transiciones de comportamiento en aprendizaje por refuerzo no estacionario. Ideal para juegos, robótica y más.
Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos.
Aprende cómo el conjunto semi-algebraico de la función de valor en POMDPs revela una geometría no lineal y maximizadores locales.